查看原文
其他

"计算社会经济学"长文综述:洞察社会经济发展的跨学科新视角

Leo 集智俱乐部 2021-04-06



导语

随着数据量的日益增“大”、计算能力的增强,研究者利用“计算社会经济学”方法,可以更好地理解社会经济系统的组织结构,及时估算出社会经济状态,这对经济发展具有重要意义。


电子科技大学的周涛、高见和瑞士弗里堡大学的张翼成,近日在 Physics Reports 期刊上发表了一篇题为“Computational Socioeconomics”的综述,着重介绍计算社会经济学(Computational Socioeconomics)这一新兴的跨学科研究领域。本文将通过解读这篇论文,来介绍这个研究领域的数据来源、计算工具方法、理论模型和新应用。




计算社会经济学:

大数据助力下的社会科学新篇章


从定性到定量的研究是诸多学科所经历的发展历程,以物理化学为代表的自然科学是定量研究的典范。可是与自然科学相比,社会科学的定量化研究起步较晚。

 

在社会科学、经济学中定量研究是以数据为基础,以统计学为研究手段,对社会经济的现象、过程和结构进行实证研究的研究方法。尽管与自然科学相比,社会科学的研究对象更为多元复杂,定量研究已经让社会学具备了“事后诸葛亮”的能力。然而,基于此构建出来的模型,对社会经济的未来并不具备良好的预测能力。随着信息技术的发展,研究者获取数据和处理数据的能力都有了显著的提升,这也促进了社会经济定量研究的进一步发展。值得注意的是,信息化浪潮所带来的新数据与传统的统计数据有着明显的不同:

 

一、数据的形式不仅是传统的统计数字,还包含了大量非结构化的多媒体数据。这就意味着必须把现代的数据挖掘和机器学习技术应用到社会科学中;

二、数据的规模和维度,数据产生的速度等都不可同日而语。相比于以前以年、季度、月为单位的数据统计模式,网络时代可以让研究者实时地收集全体尺度数据。

 

这些都是“大数据”的典型特征。随着数据量的日益增“大”、计算能力的增强,研究者能够更好地理解社会经济系统的组织结构,及时估算出社会经济状态,这对感知社会经济态势和理解社会经济规律具有重要的意义。因此,电子科技大学的周涛、高见和瑞士弗里堡大学的张翼成,近日在 Physics Reports 期刊上发表了一篇题为“Computational Socioeconomics”的综述中,着重介绍了名为计算社会经济学(Computational Socioeconomics)的跨学科新研究领域。文章中介绍了这个新领域的研究数据来源、计算工具方法、理论模型和一些新的应用场景。

 

论文题目:

Computational Socioeconomics

论文地址

https://www.sciencedirect.com/science/article/abs/pii/S0370157319301954


周涛和高见认为,计算社会经济学中有三个要素极为关键:定量、真实数据、大规模。第一是“定量化”,强调用数值而非描述来刻画问题和呈现结果,定量化是研究方法是否科学的标志;第二是“真实数据”,强调理论模型必须要服从真实数据,以对真实数据的解释和预测能力为评价准绳。经典的经济学理论陷入了优美程度大于实用程度,理想化超过了现实化的窘境。第三是“大规模”,强调尽可能获取能够直接反映全体的数据样本。数据样本规模小,有时候带来的不仅仅是偏差,还可能是完全错误的结论。



       


图中示意出了整体的样本规模(白色)、容易获取的数据(浅蓝)、和一小部分高价值但是不容易获取的数据(深蓝)三者之间的关系。

 

周涛和高见认为可以通过精心设计好的算法程序,结合全体尺度易获得数据,少量难以获得的高价值数据和机器学习算法,去推断全体尺度难以获得的高价值数据,是计算社会经济学研究中很有代表性的一种新方法,体现了社会科学和计算机科学理念和方法的深度融合。




全球经济发展中

的不均衡与复杂性


长期以来,揭示不同地区的经济发展状况都是社会经济学的重要研究课题,利用卫星遥感获取的夜间灯光(nighttime lights, NTLs)卫星影像为研究一个地区的经济活跃程度提供了有效的辅助信息。一个地区夜间越亮,则说明这一地区越富有。特别是在统计数据资料缺乏的情况下,尤其是在一些欠发达地区,卫星遥感数据就具备极大的潜力。


       
 
利用卫星夜间光源数据绘制的贫困人口比例地图,颜色越深表示贫困人口的比例越高。


结合上现代的机器学习技术,在即便是NTLs 不充足的地方(贫困地区夜间整体偏暗),可以利用白天的遥感影像数据与夜间图像进行迁移学习。由此,将白天卫星遥感图像所包含的景观信息和夜间 NTLs 所包含的经济信息就建立起了关联。


       

利用 CNN 通过卫星遥感数据预测经济活动

 

自从 2009 年以来,有学者提出了一个新的衡量国家经济实力的指标 经济复杂性系数(Economic Complexity Index,ECI)。这一指标是根据国家间进出口数据绘制得到的“国家-产品”二部图网络,再经过迭代运算得到的指标性数据。同样,根据“国家-产品”二部图网络构建出的 Fitness 指标能够预测一个经济体未来的发展趋势。


       
 Fitness-人均GDP变化趋势图像,横坐标是 Fitness 指标、纵坐标是人均 GDP

 

我们可以把上图分为两个区。左侧,当 Fitness 指数很低、经济不够复杂的时候,图像呈现出混乱的现象,也无法给出准确的预测;而对于右侧而言,当经济复杂性很高的时候,经济就处于一个“平流层”的区域中,这时的经济发展趋势、GDP 就可以被很好地预测。



区域经济发展


随着我们能够掌握越来越多的“大”数据,高精度的数据有助于我们在城市量级上去刻画地区的经济发展水平。前文提到的夜间灯光(NTLs)数据,在城市这种相对小的尺寸下也适用。麦吉尔大学的Naizhuo Zhao等人就利用 NTLs 数据绘制出了华南地区“像素级”的 GDP 数据。

               
中国华南地区“像素级”GDP地图

 

众所周知,随着互联网的发展,特别是随着智能手机而兴起的移动互联网,线上的网络社交生活已经成为了影响日常生活不可忽视的一部分,以布莱恩·阿瑟的话来说,这已经成为了一个虚拟的经济体。因此,在线社交网络分析也得到了越来越多的关注。此外,在线社交网络数据具备着采集成本低、覆盖范围广泛、实时性强等优势。研究者已经也把相关数据用于进行社会经济学分析。

 

周涛的研究团队曾把 2009 至 2012 年间的近 2 亿名微博用户的注册地区进行了统计。


       


微博用户的注册地区分布(左图),和 GDP 分布情况(右图)(以地级市为统计单位)

 

如上图所示,在一些地区社交网络用户的分布和GDP分布情况存在一定的差异。换句话说,通过社交数据分析出的某些城市的经济情况和 GDP 反映出的经济情况存在出入。由此研究者设计出了一个通过社交数据预测 GDP 的算法,研究者意识到,在某些 GDP 较高的地区经济多样性较差,对能源矿产资源的依赖过重,而事实上,这些地区在 2013 年都经历了经济下滑。

 

不仅仅社交网络的数据能够解释GDP 的发展趋势。周涛的研究团队利用基于微博数据的信息流动(关注和转发等)和基于简历数据的人才流动(工作地点变化),绘制出了不同区域间信息流动的方向和人才流动的方向。



              

微博信息流示意图(左图)和(简历)人才流示意图(右图)

 

研究者发现,二者都能有效的对经济发展做出预测,人才流动网络的样本数据仅为信息流动网络的样本数据的 1/3000,但人才流动网络的结构对 GDP 的解释能力更强。



个人经济预测


计算社会经济学的一大优势即体现在能从不同的尺度上,分析预测不同研究对象的经济情况。计算经济学的研究方法,不仅仅对宏观区域经济的发展状况评估,也能对微观个体的经济情况进行估计。在对个体进行的研究中,研究者最主要使用的两类数据是移动电话(mobile phones, MPs)和社交网络( social media, SM)。

 

纽约城市大学的Shao-Jun Luo等人做过一项研究,把拉丁美洲每个人的手机通信数据绘制成一个巨大的社交网络(该网络一共包含一亿零七百万的手机用户)。

       


经济水平处于最顶层的 1% (左侧)和最底层的 10%(右侧)的通信网络

 

通过上图我们可以看出,经济水平高的手机用户,社交网络明显更广阔,更多样;而相对贫穷的用户的社交网络则更加集中,缺乏多样性。下图则展示了两种不同类型人的社交关系网络。



       

经济水平处于最顶层的 1% (左侧)和最底层的 10%(右侧)的人际关系网络( ego-network)。从图中可以明显看出“高端人士”的社交生活更加丰富多彩。

 

本综述论文的作者周涛、高见也曾在 2018 年做过一项有趣的研究,他们没有把预测个人经济水平作为研究目的,而是通过分析在校大学生行为数据来预测学生的学习成绩。研究者利用学生校园刷卡的数据,分析学生日常生活的规律性,并由此来预测学生的学业成绩。

             

利用学生行为数据预测学业成绩。从左到右的四个步骤分别是:1. 学生校园卡使用记录;2.提取日常行为数据;3 分析行为的规律;4 预测学生学业表现(GPA)。



应急管理与险情急救


计算社会经济学的一个有力的应用就体现在对于紧急突发事件的预测和响应。同时为管理者提供有效的决策参考。

 
在 2010 年 海地大地震发生后, 吕欣等人利手机 SIM 卡信息。统计分析出了当地的人口迁移情况
       

海地大地震后灾后人口迁移情况,红色曲线表示首都太子港(PaP)的人口 迁移(减少)情况。


 

通过上图我们可以发现,在地震生后,人口发生了锐减,而进一步的分析可以发现离开太子港的人都去到了他们有人际联系的其他城市。这一点也为灾后的人口流动趋势提供了有利的帮助。



计算社会经济学的前景


作为一门跨学科的新兴领域,计算社会经济学有着传统学科所无法比拟的优势。但论文作者也指出了这一领域存在的问题。

 

一、数据的质量,特别是真实性难以得到保障。虽然,相比于模拟仿真而言,来源于真实世界的数据确实是计算社会经济学的优势所在。但来自社交媒体的数据的真实性也往往被人质疑。很多社交媒体中用户的相当一部分都不是真人,而是机器人。被机器人操纵的网络议题,会影响人们的看法。从这些混杂了机器人行为在内的数据出发所得到的结论,可能与真实情况偏差很大。
 
二、研究结果的适用范围和相关性有限。计算社会经济学目前所使用的数据源所覆盖的人群数量虽然在整个人口中都占有相当比例,但是并不能保证这个样本具有随机性,能够真正代表整个人口。例如特别贫困的人、小孩子和老人对于互联网和移动互联网的参与度都很低,不太容易被上述数据覆盖到。另外,社会经济问题会受到所在地宗教、文化和政治的影响,因此在一个地方适用的结论,不一定在其他地方也适用。

 

为此,周涛、高见和张翼成提出了计算社会经济学未来研究的五个发展方向:

 

  1. 尝试设计具有很强解释和预测能力的新指标。

  2. 利用数据驱动的方法论,对传统社会经济学理论的正确性和适用性进行重新分析。

  3. 发现因果关系,形成理论洞见。

  4. 要通过控制实验验证新的理论成果。

  5. 将理论和实证分析的方法与结果用于实践。

 

被大数据与人工智能注入新活力的计算社会经济学,仍然处于起步阶段,但可以预料到的是,这一交叉领域的未来必将丰富多彩。会让不同学科背景的研究者进入这一领域,为社会科学带来新的研究范式。



作者:Leo

审校:高见、刘培源

编辑:张爽


推荐阅读


计算社会经济学:行为数据驱动预测性管理 | 周涛
计算社会经济学前沿:从个体到城市
经济复杂性指数:利用网络科学判断国家经济实力
经济学范式的转移:复杂性科学家对信息经济学做出开创性研究
加入集智,一起复杂!







集智俱乐部QQ群|877391004

商务合作及投稿转载|swarma@swarma.org

◆ ◆ ◆

搜索公众号:集智俱乐部


加入“没有围墙的研究所”

让苹果砸得更猛烈些吧!


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存